Inicialmente serão plotados os histogramas para avaliar a distribuição dos fatores observados em cada uma das amostras de vinho tinto.
Avaliando os gráficos gerados pode-se perceber que as variáveis density e pH têm distribuição normal.
Em contrapartida, fixed.acidity, volatile.acidity, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide e sulphates têm cauda longa.
Esses fatores terão suas distribuições e correlações estudadas mais à frente.
A variável quality será utilizada como variável dependente. O estudo será feito a partir de outras variáveis que serão analisadas com relação à quality.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
Dado que a variável quality apresenta apenas números inteiros, ou seja, não teremos vinhos classificados com qualidade 6.8, por exemplo, serão criadas categorias de classificação de vinhos.
Os vinhos estão classificados em uma escala de 0 a 10, sendo 0 a pior classificação de qualidade e 10 a melhor.
No dataset estudado, a maioria dos vinhos estão classificados com qualidade 5 e 6. A pior qualidade observada foi 3 e a melhor foi 8.
Desse modo, os vinhos serão categorizados em:
No gráfico Categorias temos a distribuição dos vinhos distribuídos nas categorias, ruim, bom e excelente.
No gráfico Categorias e qualidade temos a mesma representação do gráfico anterior, mas com a exibição também das quantidades que aparecem em cada uma das categorias.
A seguir, as variáveis independentes serão analisadas com relação à variável dependente quality. O objetivo é observar a distribuição e, principalmente, a correlação que cada ume tem com a variável dependente quality. Isso servirá como base para as análises, porque as maiores correlações indicam maiores influência no fator qualidade. Os gráficos das variáveis independentes apresentados a seguir já consideram a transformação logarítmica, quando necessária, em cada caso.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
## [1] "Correlação da Acidez Fixa com a Qualidade: 0.124051649113224"
A variável de Acidez Fixa tem distribuição próxima de log-normal.
Sua correlação com a variável dependente Qualidade é de 0,12 e é considerada baixa Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
## [1] "Correlação da Acidez Volátil com a Qualidade: -0.390557780264007"
A variável de Acidez Volátil tem distribuição próxima de normal com alguns picos, mas não caracteriza bimodal.
Sua correlação com a variável dependente Qualidade é de -0,39 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
## [1] "Correlação de Ácido Cítrico com a Qualidade: 0.226372514318041"
A variável de Ácido Cítrico não tem distribuição normal.
Sua correlação com a variável dependente Qualidade é de 0,23 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
## [1] "Correlação de Açúcar Residual com a Qualidade: 0.0137316373400663"
A variável de Açúcar Residual tem distribuição log-normal enviesada para a direita com long tail e muitas exceções.
Sua correlação com a variável dependente Qualidade é de 0,01 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
## [1] "Correlação de Cloretos com a Qualidade: -0.128906559930053"
A variável de Cloretos tem distribuição log-normal enviesada para a direita com long tail e muitas exceções.
Sua correlação com a variável dependente Qualidade é de -0,13 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
## [1] "Correlação de Dióxido de Enxofre Livres com a Qualidade: -0.0506560572442764"
A variável de Dióxido de Enxofre Livres tem distribuição normal enviesada para a direita, com alguns picos e com long tail e exceções.
Sua correlação com a variável dependente Qualidade é de -0,05 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
## [1] "Correlação de Dióxido de Enxofre Total com a Qualidade: -0.185100288926538"
A variável de Dióxido de Enxofre Total tem distribuição próxima de log-normal com poucas exceções.
Sua correlação com a variável dependente Qualidade é de -0,18 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
## [1] "Correlação de Densidade com a Qualidade: -0.174919227783349"
A variável de Densidade tem distribuição normal. Apresenta exceções nas duas extremidades de amostras.
Sua correlação com a variável dependente Qualidade é de -0,17 e é considerada fraca. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
## [1] "Correlação de pH com a Qualidade: -0.0577313912053821"
A variável de Potencial Hidrogeniônico tem distribuição normal.
Sua correlação com a variável dependente Qualidade é de -0,06 e é considerada desprezível. Portanto, não será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
## [1] "Correlação de Sulfatos com a Qualidade: 0.251397079069261"
A variável de Sulfatos tem distribuição log-normal com long tail e muitas exceções.
Sua correlação com a variável dependente Qualidade é de 0.25 e é considerada moderada. Portanto, será avaliada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
## [1] "Correlação de Álcool com a Qualidade: 0.476166324001136"
A variável de Álcool tem distribuição próxima de log-normal enviesada para a direita com poucas exceções.
Sua correlação com a variável dependente Qualidade é de 0.48 e é considerada moderada. Portanto, será avaliada.
## 'data.frame': 1599 obs. of 14 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## $ category : Factor w/ 3 levels "ruim","bom","excelente": 2 2 2 2 2 2 2 2 2 2 ...
Adicional ao que é exibido na função str(), de acordo com o arquivo wineQualytiInfo.txt obtido do repositório da Udacity no endereço https://s3.amazonaws.com/udacity-hosted-downloads/ud651/wineQualityInfo.txt, o conjunto de dados tem a seguinte estrutura de variáveis:
Input variables (based on physicochemical tests):
Output variable (based on sensory data):
QUALITY é o atributo principal, pois ele define a qualidade do vinho baseado nos outros fatores.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
| variável | correlação |
|---|---|
| fixed.acidity | 0.12 |
| volatile.acidity | -0.39 |
| citric.acid | 0.23 |
| residual.sugar | 0.01 |
| chlorides | -0.13 |
| free.sulfur.dioxide | -0.05 |
| total.sulfulr.dioxide | -0.19 |
| density | -0.17 |
| pH | -0.06 |
| sulphates | 0.25 |
| alcohol | 0.48 |
De acordo com a tabela acima, não temos nenhuma variável com uma correlação forte.
Com base nos valores de correlação obtidos, os atributos que podem auxiliar a investigação são:
Foi criada a variável category, conforme descrito acima para classificar os vinhos em ruins, bons e excelentes.
Foram encontradas as seguintes variáveis com distribuição normal (ou bem próximas):
As variáveis a seguir têm distribuição log-normal (ou bem próximas)
A variáveis a seguir têm distribuição não normal
Não houve necessidade de ajustes ou formatação dos dados, por serem todos numéricos.
O diagrama a seguir mostra a influência que cada uma das variáveis selecionadas exerce na qualidade dos vinhos e são agrupadas nas notas que cada vinho recebeu e também são destacadas nas categorias excelente, bom e ruim.
Entretanto, há uma inversão com vinhos categorizados como bons, porém com qualidade 5. Vinhos com qualidade inferior (3 e 4) possuem teores alcoólicos acima.
Analisando os fatores que foram descartados da primeira análise podemos identificar se existe entre eles alguma correlação forte. O diagrama a seguir mostra todas essas correlações.
Conforme observado na seção Influência dos componentes na qualidade dos vinhos, melhores vinhos têm:
Dos atributos que não foram selecionados para a análise, foram encontradas duas correlações fortes:
Os atributos pH e fixed.acidity não parecem muito relevantes, porque os dois se relacionam com alcalinidade dos vinhos. Não há vinho tendendo a ser ácido.
Todos são alcoólicos. O próprio fator pH tem correlação muito fraca com a qualidade, da ordem de -0.06.
O maior correlacionamento encontrado entre os itens de interesse foi:
O maior correlacionamento encontrado entre os itens de não interesse foi:
A análise bivariada dos fatores “de não interesse” não trouxe nenhuma tendência significativa e, portanto, esses fatores foram descartados.
A partir dessa observação, o estudo segue analisando os 4 primeiros fatores que já tinham sido escolhidos como “de interesse”.
Estudamos, a seguir, a correlação entre esses fatores. Para isso serão utilizados gráficos de disperção com a apresentação da linha de tendência. Dessa forma é possível uma interpretação visual dos resultados.
A inclinação da linha de tendência indica a correlação. Quanto mais inclinada, maior é a correlação entre os fatores analisados.
Correlação Álcool vs. Acidez Volátil é fraca (-0.202). Não será considerada na análise.
Correlação Álcool vs. Sulfatos é muito fraca (0.094). Não será considerada na análise.
Correlação Álcool vs. Ácidos Cítricos é muito fraca (0.110). Não será considerada na análise.
Correlação Acidez Volátil vs. Sulfatos é mediana (-0.261). Será discutida na seção seguinte.
Correlação Acidez Volátil vs. Ácidos Cítricos é forte (-0.552). Será discutida na seção seguinte.
Correlação Sulfatos vs. Ácidos Cítricos é mediana (0.313). Será discutida na seção seguinte.
Calculando-se a correlação entre os fatores de interesse e analisando os gráficos anteriores observa-se que, associado ao percentual alcoólico, também temos que bons vinhos apresentam os seguintes índices:
Os gráficos de disperção com a linha de tendência confirmam o que foi apresentado na seção de Gráficos Bivariados no diagrama com os gráficos de BoxPlot.
Esse primeiro gráfico é o elemento que guia todo o estudo do dataset porque nele encontramos distribuídos os vinhos em uma escala de qualidade e agrupados por categorias.
Os vinhos são classificados em notas de 0 a 10 e agrupados em 3 categorias, excelente, bom e ruim.
Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.
Mostrando a variação do fator mais importante, o teor alcoólico é o elemento que mais contribui na qualidade do vinho.
Vinhos de melhor qualidade apresentam teores alcoólicos maiores.
Apesar de vinhos de qualidade inferior terem a mediana do teor alcoólico levemente superior aos vinhos da primeira categoria de bons (com notas = 5), outros fatores associados influenciam nesse resultado. Portanto, a tendência de maiores índices de álcool iniciando em vinhos com nota 5 indica que são diretamente proporcionais.
Por fim, a apresentação dos 4 fatores fortes, também classificados pelas notas e agrupados pelas categorias.
Nesse diagrama temos a representação gráfica da conclusão apresentada na seção de Análise Multivariada, onde foram discutidas as correlações entre esses fatores e como eles influenciam na qualidade do vinho.
Analisando o dataset de Qualidade de Vinhos Tintos, logo no primeiro contato foi possível identificar que o fator denominado quality (qualidade) seria o fator que guiaria todas as outras análises. Estudando a variável quality com um pouco mais de profundidade, observa-se que a nota dos vinhos está distribuída em uma escala de 0 a 10 e para o conjunto de dados estudado temos amostras com notas variando de 3 a 8. Assim, para não ter apenas a nota como referência, os vinhos foram categorizados de acordo com suas notas em:
| nota | categoria |
|---|---|
| de 0 a 4 | ruim |
| de 5 a 7 | bom |
| de 8 a 10 | excelente |
Seguindo esse raciocínio, o próximo passo foi entender como os outros fatores influenciam na qualidade do vinho. Para fazer isso foram calculadas as correlações de todos os outros fatores com relação ao fator de qualidade. O que se descobriu nesse ponto é que 4 fatores têm maior influência na qualidade dos vinhos do que o restante.
A análise mostrou que os seguintes fatores e suas respectivas correlações com a variável quality influenciam significativamente na qualidade dos vinhos:
| fator | correlação |
|---|---|
| alcohol | 0.48 |
| volatile.acidity | -0.39 |
| sulphates | 0.25 |
| citric.acid | 0.23 |
Uma vez encontrados os fatores mais fortes que determinam a qualidade dos vinhos, foi realizado um outro estudo, agora com os fatores inicialmente descartados, por terem menores correlações com a variável quality.
Dos fatores inicialmente descartados, duas correlações chamaram a atenção;
| fator 1 | fator 2 | correlação |
|---|---|---|
| pH | fixed.acidity | -0.683 |
| density | pH | 0.668 |
Apesar de terem correlação forte, esses fatores não foram estudados por estarem intimamente ligados à alcalinidade do vinho. Essa conclusão baseou-se por se tratar de um elemento substancialmente de pH alcoólico e também por motivo de o pH ter correlação baixíssimo com o fator quality.
Segundo o estudo do dataset pode-se concluir que um vinho de boa qualidade apresenta os seguintes fatores e valores:
| fator | faixa de qualidade | observação |
|---|---|---|
| Álcool | entre 9.8 e 12.2 % | melhor nos maiores índices |
| Acidez Volátil | entre 0.3 e 0.8 g/dm^3 | melhor nos menores índices |
| Sulfatos | entre 0.5 e 0.75 g/dm^3 | melhor nos maiores índices |
| Ácidos Cítricos | entre 0.0 e 0.5 g/dm^3 | melhor nos maiores índices |
As afirmações acima podem ser comprovadas nos gráficos apresentados na seção do Segundo Gráfico acima.
O dataset é pobre em amostragens de vinhos com notas mais baixas (0 a 4) e nas mais altas (8 a 10). Para uma melhor confiabilidade do estudo seria mais interessante que o dataset trouxesse uma distribuição de notas com uma representatividade maior dos vinhos ruins e dos excelentes.
Dos 4 fatores mais fortes estudados, nenhum deles tem realmente uma grande correlação com a qualidade. Todos estão abaixo de 0.5. Todo o estudo seguiu baseado em correlações de moderadas a baixas.
Uma melhoria desse dataset pode trazer resultados mais relevantes se fossem incluídas algumas outras variáveis. #### Ausência de algumas variáveis
Temperatura Estudiosos e apreciadores de vinho costumam recomendar um range de temperaturas que consideram ideias para apreciar quada tipo de vinho.
Qualidade da uva Com as variedades de uvas já estabelecidas com os produtores, esse fator deveria estar presente no dataset.
País de origem Os mesmos tipos de vinhos, com as mesmas características e usando as mesmas uvas podem trazer resultados diferentes se forem produzidos em outros países, porque sofrem influência de clima, solo, pressão atmosférica e até fatores culturais nos processos de fabricação.